.

Introduction

1 - Quelques stats descriptives pour de l’analyse OK A - Premiers pas… les données B - Fréquence de distribution OK

2 - Etude complète sur la constitution d’un prix OK A - Prix en fonction de la localisation, du quartier OK B - Prix en fonction du type de biens et capacité d’accueil OK C - Prix en fonction des commodités OK D - MODELE LINEAIRE PRIX reg lineaire…. + catégorie de prix

3 - Etude des liens avec le marché locatif COMMENTAIRE COMPLET A FAIRE

4 - Etude textuel A - Etude sur le nom des annonces Airbnb B - Etude et analyse des sentiments C - Modélisation entre sentiments et prix

Conclusion

1 Introduction

Airbnb est une société américaine de location de vacances en ligne basée à San Francisco, en Californie. Airbnb maintient et héberge une “place de marché”, accessible aux consommateurs sur son site web ou via une application. Grâce à ce service, les utilisateurs peuvent organiser des hébergements, principalement des séjours en famille d’accueil, et des expériences touristiques, mais encore répertorier leurs propriétés à louer. Airbnb ne possède aucune des propriétés répertoriées ; au contraire, elle tire profit de la commission qu’elle perçoit sur chaque réservation. La société a été fondée en 2008 par Brian Chesky, Nathan Blecharczyk et Joe Gebbia. Airbnb est une version abrégée de son nom original, AirBedandBreakfast.com.

L’objectif principal de ce projet d’open DATA est de croiser différentes bases de données, c’est-à-dire les mettre en relation afin d’être capable d’en tirer de nouvelles informations. Nous voulons, à travers ce travail, d’une part comprendre dans son intégralité la façon dont le prix d’un bien et obtenus, et d’autre part, être capable de proposer le meilleur bien selon l’envie du client. Pour ce faire, nous utiliserons donc plusieurs bases de données, tous d’abord nous disposons du détail des offres Airbnb disponibles dans les villes françaises de Bordeaux. Ensuite nous disposons de la base de données regroupant le prix du marché immobilier où nous nous concentrerons particulièrement sur le marché locatif. Nous avons également à disposition la base de données des réservations des bien Airbnb pour l’année 2021, et enfin nous avons une grosse base de données regroupant une multitude d’avis client sur les biens Airbnb.

Dans un premier temps nous voudrions être capable de découvrir quels sont les facteurs qui influencent le prix de la nuit d’une réservation Airbnb. Pour ce faire nous regarderons attentivement l’ensemble des variables qui influent sur le prix de la location. Nous nous attendons à ce que la position géographique, le quartier, le type de chambre ou de logement, le nombre de salles de bains, la notation des clients soient de puissants prédicteurs. Dans un second temps, nous allons nous concentrer sur la description du bien airbnb proposée par le propriétaire. En effet, cette information est une des clefs pour comprendre la représentativité des biens disponibles. Dans cette section nous utiliserons des méthodes et outils de traitement du language pour en tirer des informations pertinentes. De plus, nous voulons proposer un outil de visualisation simple et intuitive qui permettrait de mettre en relation nos bases de données, cet outil se présentera sous forme d’une carte interactive. Nous pourrions ainsi détecter au mieux certains biens Airbnb dit “hors du marché”, on retrouverait par exemple les biens d’exceptions. Nous pourrions être capables, au sein d’un même quartier, de déterminer le type de bien qui fonctionne et qui anime les réservations. Ce travail nous permettrait peu d’être de mettre en relation les différents quartiers et les caractéristiques des consommateurs qui réservent. Enfin, nous utiliserons notre jeu de données regroupant l’ensemble des avis clients sur les biens loués, afin d’en extraire l’idée, le sentiment général, celui qui reste en tête. Cette dernière analyse, faisant également appel aux notions de traitement de language, nous permettra de connaitre le type de biens qui fonctionne à travers une analyse sentimental des commentaire client.

2 Quelques stats descpriptives pour de l’analyse

2.1 Premiers pas… les données

Airbnb, comme beaucoup d’autre web service, tient à ce que ses données restent privées et elle ne permet pas aux internautes d’accéder à leurs données en Opendata. Toutefois, Murray Cox, un photojournaliste australien, est parvenu à rendre certaines données de la plateforme en libre accès. Ainsi, par le biais de son site insideAirbnb, ce dernier permet l’accès à de larges tables de données concernant une quarantaine de villes dans le monde. Une telle alternative est appréciée par la communauté des data scientists et permet alors de mieux comprendre comment se comporte le phénomène Airbnb au sein même d’une ville mais également sur le plan international. Nous nous intéressons exclusivement aux données de la ville de Bordeaux, à partir du jeu de données brutes, nous sélectionnons les variables qui nous semble utile dans cette première analyse et pour expliquer le prix. Nous avons selectioné ces variables :

  • price: C’est le prix du biens Airbnb pour une nuit, ici notre variable cible.
  • latitude and longitude: C’est l’infortmation géographique du biens Airbnb.
  • neighbourhood_cleansed: C’est le nom du quartier où se trouve le biens Airbnb.
  • neighbourhood_group_cleansed : C’est le nom de la ville où es trouve le biens Airbnb.
  • room_type: C’est le type du biens Airbnb : Entire home/apt, Private room and Shared room
  • accommodates: C’est le nombre de personnes que le biens Airbnb peut recevoir.
  • beds: C’est le nombre de couchage du biens Airbnb.
  • review_scores_rating: C’est la note moyenne du biens Airbnb donnée par les locataires.
  • amentities: Ce sont l’ensemble des comoditées du biens Airbnb

La deuxieme partie de notre projet s’interressera aux commentaires de tous les locataires de l’année 2019 à l’année 2020. Nos variables d’interet sont donc : - listing_id : identifiant qui nous permet de faire le lien entre les commentaires et les caractéristiques du bien loué - date : la date des commentaires - comments : les commentaires des locataires - reviewer_name : Prénom du locataire

De plus, nous avons utilisé par la suite une base de données contenant le prix des loyer par ville et par quartier. L’objetcif avec cette base de données est de mettre en relation le marché locatif et le marché des biens Airbnb. Elle est cosntitué comme suit :

  • Base_OP_AAAA_LXXXX.csv : Ce fichier fourni les statistiques sur le niveau des loyers du parc locatif privé au 01/01/AAAA. Elles sont fournies à l’échelle de l’agglomération, de différentes zones géographiques plus fines ainsi qu’à l’échelle de la ville centre et de sa périphérie (pour certaines agglomérations).

  • Les fichiers KML permettent d’afficher sur une carte à partir d’un logiciel de SIG les contours du périmètre d’observation « LXXXX_agglo_AAAA.kml », des zones géographiques « LXXXX_zone_cal_AAAA_1.kml », de la ville centre et sa périphérie « LXXXX_zone_compl_AAAA.kml » et des communes « LXXXX_zone_elem_AAAA.kml »

2.2 Fréquence de distribution

Les analyses descriptives sont les premières manipulations à effectuées dans une étude quantitative, leur objectif principal est de résumer et d’explorer le comportement des données impliquées dans l’étude. En utilisant des techniques statistiques telles que la distribution des fréquences, les mesures de tendance et les mesures de dispersion, nous pouvons mieux comprendre la façon dont les phénomènes étudiés se comportent.

Il faut tout d’abord s’occuper de nettoyer notre jeu de données. Pour les variables catégorielles dites “simple” telles que le quartier, la ville, le nombre de couchage, …, ne nécessite pas de traitement particulier. En revanche il faut s’assurer que les valeurs extrêmes n’affectent pas nos résultats, nous gérons égalementlesvaleurs manquantes en supprimant les biens trop affectés par des valeurs manquantes. Premièrement, nous nous concentrons sur la répartitions des biens Airbnb en fonction de la ville.

##            Frequency   Percent
## Bordeaux        6796 64.343874
## Merignac         536  5.074796
## Talence          463  4.383639
## Pessac           407  3.853437
## Bgles            348  3.294831
## Le Bouscat       297  2.811967

Nous remarquons directement, au vu des résultats et de façon logique, que la grande majorité des biens Airbnb (près de 65% des biens) se trouve dans la ville de Bordeaux. Les villes avec le plus grand nombre de biens sont ensuite, Mérignac, avec près de 5% des biens Airbnb, grande ville avec l’aéroport de la zone, ce qui justifie grandement ce resultat. Talence, avec près de 4,4% des biens Airbnb, une grande ville connu pour sa grande activité étudiante principalement.

Pour obtenir des résutats plus parlant, nous proposons une representation par quartier et non plus par ville. Ce point de vu nous permet alors que comprendre mieux comment sont répartie les biens au sein de la ville centre qui est Bordeaux. Ci-dessous le graphe représantant le top 10 des quartiers/zones les plus représentées sur Airbnb.

Comme attendu, le fait de regarder par quartier de façon plus precise nous permet de savoir comment sont répartie les biens, principalement dans la ville de Bordeaux. Il en ressort la très fortes activité du centre ville de Bordeaux, avec près de 18% des biens. Le sud de Bordeaux est également tres important avec pres de 15% des biens Airbnb. Nous retrouvopns ensuite des quartiers comme celui des Chartrons - Grand Parc - Jardin Public, Nasouty, Bordeaux Maritime, regroupant entre 5et 10% des biens Airbnb. Pour mieux voir et comprendre ce qui se designe derrière cette distributions, nous representons un top 10 des quartiers les plus présent sur le site Airbnb.

Parlons prix, c’est le nerf de la guerre puisque qu’il agrège à lui seul toutes les caractéristiques du biens et permet au client de faire son choix en fonction de son budget. C’est l’élément le plus essentiel sur un site de location de biens puisqu’il est capable de déclencher une reservation. Concernant sa distribution des prix, nous tracons l’histogramme des prix pour l’ensemble des biens considérés.

En tracant la répartition des prix, nous remarquons une forte amplitude sur les prix, avec une enorme concentration pour les prix entre 0 et 250 euros la nuit. Nous nous rendons bien compte que les biens d’exeption influent complètement sur ce type de graphe avec des prix par nuit explosant pour atteindre pres de 8000 euros la nuit. Comme la distribution originale est très asymétrique, la transformation logarithmique peut être utilisée pour obtenir un meilleur aperçu des données.

Nous obtenons alors une meilleur distribution avec un prix moyen de 90 euros, notons que même avec cette transformation, la quasi totalitées des biesn se trouvent dans une meme tranche de prix. Ce reésultats reste rassurant car une location se trouvera toujours dans une meme tranche de prix, avec des biens exeptionnels bien plus cher mais en très petite quantitées.

3 Etude complète sur la constitution d’un prix

Le prix est, comme nous l’avons dit, la varibale cible, il est important de pousser l’analyse plus loin, nous nous sommes donc intérogé sur les varibales autre que le prix dans le listing de nos biens Airbnb pour comprendre au mieux ce qui impact significativement le prix. Pour ce faire nous representons l’importance des variables dans notre modèle en utilisant une forêt alétoire. Les paramètres choisis sont standards avec un nombre de 500 arbres et un mtry de 2. Notons qu’un découpage apprentissage/test a également été effectué.

A l’aide du package RandomForest, nous sommes en mesure d’afficher un tel graphe qui nous indique, pour notre modèle, que le prix est principalement impacté par le nombre de personnes qu’il peut acceuillir. Ce resultats est tout à fait cohérent voir évident, plus le logement permet d’acceuilir de personnes, plus il est cher. Dans ce sens, on a aussi le nombre de couchage disponible qui fait grimper le pric de façon significative. Bien évidement, la localisation exacte ainsi que le quartier et la ville à aussi un gros impacte sur le prix. Enfin, les commodités, le type de biens et le score donné par les usagers sont des élemetns important dans la constitution du prix de la nuité.

3.1 Prix en fonction de la localisation, du quartier

Dans cette section, et pour faire echos à ce que nous avons vu juste precédement, nous allons voir le lien entre le prix du biens Airbnb et sa localisation, c’est à dire de à la longitude et latitidue du biens considéré, mais également de son quartier. Cette analyse nous permettra d’obtenir des réponses intéressantes, telles que “Quels sont les 10 quartiers les plus chers à réserver sur airbnb ?”, “Quels sont les 10 quartiers les moins chers à réserver sur airbnb ?”, “Quels sont les 10 quartiers/villes adjacentes les plus reservées sur airbnb?”. Tout cela avec des graphiques très attrayants et informatifs que nous allons voir par la suite.

Le graphe ci-dessus nous indique le top 10 des quartiers ayant à la fois les prix de réservation les plus chères de la région mais également les moins chères.Lorsque l’on observe le top 10 des quartiers les plus chères, nous pouvons nous pencher sur les quartiers tels que Toctoucau, le Monteil et Bouliac. Pour comprendre ce qui caractérise ces quartiers chers, il est important de les étudier à l’aide de données démographiques.

  • Toctoucau, avec un prix moyen par nuit de 169 euros, est un quartier de la commune de Pessac (33600). Ce quartier, au paysage verdoyant et à l’ambiance calme, abrite 2585 habitants qui ont une moyenne d’âge de 39 ans, ont des revenus confortables, vivent majoritairement en famille, et sont principalement propriétaires de leur logement.

  • Le Monteil, avec un prix moyen par nuit de 167 euros, est un quartier de la commune de Pessac (33600). Ce quartier, au paysage urbain et à l’ambiance animée, abrite 3262 habitants qui ont une moyenne d’âge de 40 ans, ont des revenus confortables, vivent majoritairement en célibataire, et sont principalement locataires de leur logement. Le quartier dispose, aux alentours, de divers services et infrastructures de transport, de commerce, de loisir, de culture, de santé, d’éducation.

  • Bouliac quant à elle, avec un prix moyen par nuit de 168 euros, est une commune calme du département de la Gironde (33270). Les 3040 habitants sont en majorité des couples et célibataires. Ils sont plutôt propriétaires de leur logement (64 %) et ont des revenus aisés (41100 euros par ménage).

De cette analyse il en ressort de façons cohérentes que ces quartiers sont des zones où le confort est bon, avec un nombre d’habitants raisonnables autour des 3000 personnes. Les infrastructures de santé ou d’éducation y sont particulièrement bien représenté ce qui favorise une population aisée. De plus, il est intéressant de noter que pour quasiment tous les quartiers de ce top 10, les espaces sont grands, dans cette optique, les biens mis à disposition des utilisateurs Airbnb sont pour la grande majorité des maisons avec de grande et belle superficie. Nous comprenons alors bien comment ces quartiers se retrouvent avec des prix moyens les plus élevés.

Pour les quartiers les plus accessibles, nous pouvons réaliser le même travail pour essayer d’expliquer ces prix à partir de données démographiques. Concentrons-nous sur les quartiers de la Saige, le quartier de Beaudésert et enfin le quartier du Burck.

  • Saige est une zone industrielle de la commune de Pessac (33600). Les 5130 habitants sont en majorité des couples et célibataires. Ils sont très jeunes, locataires de leur logement (83 %) et ont des très petits revenus (19400 euros par ménage). Il y a de très nombreux HLM (63 %).

  • Le Burck est un quartier de la commune de Mérignac (33700). Ce quartier, au paysage verdoyant et à l’ambiance calme, abrite 1833 habitants qui ont une moyenne d’âge de 36 ans, ont des revenus modérés, vivent majoritairement en célibataire, et sont principalement locataires de leur logement. Le quartier dispose, aux alentours, de divers services et infrastructures de transport, de sport, de loisir, de culture, d’éducation.

  • Beaudésert est un quartier de 2 560 habitants de la ville de Mérignac dont 70 % des habitants sont locataires. Beaudésert est un quartier calme avec 57 % d’appartements et 43 % de maisons. Il y a 50 commerces de proximité dont des commerces, des restaurants et un supermarché.

Là encore, il ressort de cette analyse de façon cohérente que ce sont des zones où le confort est moins présent. Bien que nombres d’habitants sont similaires, il y a bien plus d’appartement et de personne en situation de location, avec des situations plus précaires, ce sont des espaces plus petits où la vie est agréable certes, mais avec une concentration de gens avec des revenus plus faibles. De la même façon qu’avec les quartiers riches, le prix des Airbnb est directement impacté par le contexte démographique qui définit la zone.

En somme, ce qui semble impacter de façon très significative le prix des Airbnb est d’un part la qualité du bien proposé. En effet plus un bien dispose de grands espaces plus il sera chere, mais pour un bien de même superficie, le contexte démographique sera toujours un critère déterminant. Ces analyses restent très cohérentes puisque dans le cadre d’une location Airbnb, on imagine aisément que le choix du quartier est un critère prépondérant pour les clients qui souhaite passer un agréable moment dans les lieux, mais également aux alentours.

Pour mieux examiner la disparité au niveau des prix des logements nous allons créer une nouvelle variable catégorielle qui nous permettra de différencier les biens en quatres sections : Lowcost, Standard, Haute-Gamme et Luxe. Nous observons donc une répartition assez équitable au niveau des différentes catégories de prix de location.

Regardons ensuite l’action de ces catégories de prix sur les différents quartiers et villes.

Comme initialement remarqué les catégories de biens qui se distinguent dans les différents top 10 des quartiers chères et moins chères sont effectivement “Haut gamme” et “Luxe” d’une part et dautre part “Low-cost”. Cela confirme donc notre raisonnement. Cependant les villes ou quartiers chères ne sont pas neccesserement les plus fréquentés par les clients de airbnb.

En effet Bordeaux est effectivement l’attraction principale sur airbnb, effectivement c’est bel et bien une grande et belle ville touristique de France, donc aucune surprise. Il en découle aussi qu’elle est assez chère comparativement aux villes.

Enfin, nous proposons une visualisation graphique et intéractive du prix des biens Airbnb sur une map. A noter que l’echelle à été adapté afin d’être plus detaillée dans les niveau de prix par nuit qui regroupent la quasi totalité des Airbnb.

3.2 Prix en fonction du type de biens et capacité d’accueille

L’asymétrie au niveau des prix se retrouvent encore une fois ici, Pour regler ce soucis on se permet de ne regarder que les biens Airbnb avec une parix par nuit inferieur à 1000 euros, les biens exeptionnels etant très rare en proportion, on les oculte pour avoir un graphe plus lisible. Ci-dessous la représentation des distributions de prix en fonction du type de biens.

Sans grandes surprise on se rend bien compte de que les Chambre partagées et les chambre privées sont les biens les moins onéreuses, contrairement aux chambres d’hotel et aux biens complet qui sont bien plus chere en moyenne. Cependant les soucis de distribution ne nous permment pas de voir clairement les information, en complément, nous tracons donc également le prix des biens Airbnb en fonction du type de biens avec la transformation logarithmique.

Après avoir effectué cette transformation, nous voyons que les biens les plus accessibles sont les chambres partagées, suivi par les chambres privées puis on y retrouve le gros des biens Airbnb qui sont les appartements et maison entière. Enfin, et de façon plutôt cohérente, ce sont les chambres d’hôtels qui sont les plus chere, ce prix fort est certainement du services annexes proposées par les hôtels. En mettant en relationo les différentes catégories de prix crées et les types de logements nous observons la domination sans faille des logement “Entier/appartement” comparé aux autres type de logements suivis des “chambres privées” et à la traine les “chambres partagées” et “chambres d’hotel”. Les catégories de prix confirment l’analyse précédentes, ono peut effectivement bien le distinguer sur la deuxieme figure qui est juste un zoom de la première figure. En effet les hotels et logement entier/appartement sont souvent très chères (domination des catégories “Luxe” et “Haute gamme”) tandis que les “chambres partagées” et les “chambres privées” sont moins chères (domination des catégories “Low-cost” et “Standard” )

Nous pouvons également voir si le prix des biens Airbnb est en relation direct avec le nombre de personnes qu’il peut accueillir, ce qui est tout à fait logique.

De façon naturel et très intuitive, plus le biens Airbnb est capable d’acceuillir de personnes, plus le prix du bien est élevé. Nous pouvons même déduire une relation purement linéaire entre capacité d’acceuil et prix. Et egalement nous remarquons quand le nombre de personne louant un airbnb est inférieure 3 la catégorie dominante des biens est le “Low-cost” et dès que le nombre apparait supérieure à 4 la catégorie domninate est “Luxe”. Tout simplement un grand appartement coutera plus chère et acceuillera plus de personne. Le prix est en corrélation directe avec la capacité d’acceuil

3.3 Prix en fonction des commodités

Nous avons été très intérrésé de voir que bien pour chaque Airbnb, nous avons à disposition une liste non-non exaustivedes commiditées présentes dans les biens proposés. Nous nous sommes alors posé la question de savoir si, d’une part, les commodités présentent dans les biens impactent le prix de la nuit, d’autre part, de quelle façon et avec quelle importance ce prix est affecté.

Nous imaginons aisément que plus le bien Airbnb dispose de “fonctionnalités”, de commodités, ou en tout cas d’atout énoncé dans l’annonce Airbnb, plus le prix sera haut. De par cette première analyse textuelle, nous nous rendons bien compte que les critères tel qu’une terrasse, un parking, le fait d’avoir internet et bien dautre impacte le prix de façon significative.

3.4 Modélisation statistique pour la variable prix

Dans cette partie notre but serait de modéliser les catégories de prix en fonction de nos différentes variables explicatives. Dans un premier temps nous essayer de modéliser toutes les catégories à l’aide d’une regression logistique multinomiale et enfin nous allons nous focaliser sur les deux catégories extrèmes i.e “Low-cost” et “Luxe”.

3.4.1 Avec toutes les catégories de prix

La regression logistique multinomiale ne nous donne cependant pas une erreur test de prédiction satisfaisante i.e 45%. Cependant nous avons pu à l’aide du modèle créé effectué une selection à pas descendante ce qui nous à permi grace au critère de AIC de selectionner les variables que sont : “neighbourhood_group_cleansed,beds+review_scores_rating,room_type,accommodates”

3.4.2 Avec le Lowcost et le Luxe

Cette partie concerne en effet l’analyse des deux opposés. A travers une regression logistique binaire nous avons pu modeliser à niveau correct notre moodèle. Nous obtenons après une regression logistique basique un score de bonne prédiction d’environ 92%. Cependant nous pouvons tenter d’augmenter ce score en utilisant soit une matrice de cout, soit des algorithmes stochastiques.

4 Etude des liens avec le marché locatif

Bordeaux est la meilleure ville dans plusieurs domaines notement le travail, tourisme, immobilier, restauration, circulation… Sur le premier semestre 2018, l’observatoire de l’immobilier LPI-Se Loger a désigné Bordeaux comme la ville la plus chère de province. A la faveur d’une nouvelle hausse des prix de 3,1 % sur le dernier trimestre, et de 15,4 % sur un an, Bordeaux reste la ville où les prix de l’immobilier sont les plus élevés en province, selon la dernière note de l’observatoire des prix immobiliers LPI-Se Loger. À 4 652 euros/m2, Bordeaux détrône en effet Lyon (4 530 euros), comme le rapporte 20 minutes. D’année en année ces chiffres ne font que grimper ainsi nous le constatons sur l’image suivante.

Bordeaux est aussi la ville qui enregistre la plus forte hausse sur un an, encore devant Lyon (+ 10,3 %) et Angers (+ 7,7 %).

.

Nous avons donc recuelli les données de l’observatoire dans le but de les mettre en relation avec nos données airbnb. Voici la carte de bordeaux avec les différentes zones de prix du loyer mensuel au \(m^2\).

A cela nous affichons tous les logements airbnb à disposition et ensuite nous superposerons les deux cartes et ferons une analyse subjective.

BLABLA BLBA BLA BLA

5 Etude textuel

Dans cette partie nous allons utilisé le NLP pour pouvoir comprendre les différentes variables dépendant de chaque logement. Il s’agit de l’étude du titre des annonces dans le but de comprendre la distinction entre les appartement “Low-cost” et les “Luxe” et de l’étude des commentaires des clients pour en tirer les sentiments de ceux-ci

5.1 Etude sur le nom titre des annonces Airbnb

Nous allons donc ensuite effectuer une transformation de nos données textuelles qui se trouve dans les titres des annonces airbnb, pour analyser ce qui rends leur particularité au loyer très inférieure et très supérieure.

Dans nos données textuelles nous notons la présence de mots récurents. La pluspart des hotes utilisent à priori le meme champ lexical pour décrire leur bien. Nous pouvons ainsi observer le top des mots les plus utilisés par nos hotes et ce particulierement pour les catégories de bien Low-cost et Luxieux.

Les bigrams les plus utilisés dans notre jeu de doonnées au niveau des titres

##      word1    word2   n            both
## 1       de bordeaux 876     de bordeaux
## 2   centre    ville 406    centre ville
## 3 bordeaux   centre 305 bordeaux centre
## 4     avec   jardin 256     avec jardin
## 5     avec  piscine 236    avec piscine
## 6  chambre   privée 225  chambre privée

Chose ainsi faite nous allons représenter un nuage de mots caractéristiques propres aux catégories des logements Lowcost et Luxe.

Nous notifions maison, piscine, bordeaux, villa,loft, jardin, terrasse comme caractéristique des biens à tendence luxieuse. On ne peut s’attendre à mieux car ce sont clairement les différentes atouts q’un logement peut avoir en plus value comparé à la moyenne. Pour les logements Lowcost comme nous le montre le nuage de point ci-dessous les mots apparaissants sont chambre, studio, cosy, petit, centre. Plus le logement est petit plus il en faut des adjectifs convaincant pour appater les loueurs en plus de la minimisation du prix de location.

Passoons ensuite à la création d’une variable d’interêt en utilisant des critères performances ce qui équivaudrait au revenue minimal engendré par l’hote d’un appartement airbnb. Pour la création de notre nouvelle variable on va utiliser les variables :

- nombre de location du bien
- nombre de nuits minimums et 
- prix par nuit 

Et on nomera la nouvelle variable réponse total_minimum_revenue = [nombre_de_visites] x [prix] x [nombre_de_nuits minimum] ce qui correspond à l’entrée d’argent minimum percue pour un logement.

##                                                name price price_group
## 1    Grande maison centre ville Comme à la campagne   350        Luxe
## 2                B&B Apart.Suite  / tropical garden   110        Luxe
## 3    Bordeaux Terrace - spectacular view, fast Wifi   157        Luxe
## 4 Bordeaux City Gardens - large 1 bd, park adjacent   124        Luxe
## 5 Key to Bordeaux - fairytale view, 2 bd + elevator   147        Luxe
## 6     STUDIO BORDEAUX TRIANGLE D OR ***** Climatisé    79 Haute gamme
##                                                name total_min_revenue
## 1    Grande maison centre ville Comme à la campagne              1400
## 2                B&B Apart.Suite  / tropical garden              8580
## 3    Bordeaux Terrace - spectacular view, fast Wifi             17898
## 4 Bordeaux City Gardens - large 1 bd, park adjacent              8928
## 5 Key to Bordeaux - fairytale view, 2 bd + elevator             26460
## 6     STUDIO BORDEAUX TRIANGLE D OR ***** Climatisé             25596
##   price_group
## 1        Luxe
## 2        Luxe
## 3        Luxe
## 4        Luxe
## 5        Luxe
## 6 Haute gamme

Nous allons ensuite essayer avec des modeles de machine learning de voir ce qui caractérise notre nouvelle varaible notement à Bordeaux

##  [1] "id"                             "beds"                          
##  [3] "review_scores_rating"           "accommodates"                  
##  [5] "name"                           "host_id"                       
##  [7] "host_name"                      "neighbourhood_group"           
##  [9] "neighbourhood"                  "latitude"                      
## [11] "longitude"                      "room_type"                     
## [13] "price"                          "minimum_nights"                
## [15] "number_of_reviews"              "last_review"                   
## [17] "reviews_per_month"              "calculated_host_listings_count"
## [19] "availability_365"               "Log1pPrice"                    
## [21] "price_group"                    "price_distri"                  
## [23] "total_min_revenue"
##                    (Intercept) calculated_host_listings_count 
##                  105.515009791                   -0.006430446 
##              number_of_reviews               availability_365 
##                    0.016310446                    0.001015881 
##            price_groupLow-cost                price_groupLuxe 
##                   -0.592886156                    0.498815331 
##            price_groupStandard                           beds 
##                   -0.377297241                    0.046042681 
##            room_typeHotel room          room_typePrivate room 
##                   -0.790644585                   -0.423840033 
##           room_typeShared room                   accommodates 
##                   -0.673881395                    0.072422401 
##           review_scores_rating                       latitude 
##                    0.020926190                   -2.247327845
## 
## Call:
## lm(formula = log(total_min_revenue) ~ ., data = train_m)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.9144 -0.7644  0.1376  0.8502  5.5813 
## 
## Coefficients:
##                                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                     1.056e+02  6.616e+01   1.597 0.110423    
## calculated_host_listings_count -6.434e-03  1.193e-03  -5.392 7.34e-08 ***
## number_of_reviews               1.631e-02  3.370e-04  48.388  < 2e-16 ***
## availability_365                1.017e-03  1.485e-04   6.848 8.51e-12 ***
## price_groupLow-cost            -5.924e-01  6.185e-02  -9.578  < 2e-16 ***
## price_groupLuxe                 4.996e-01  5.925e-02   8.432  < 2e-16 ***
## price_groupStandard            -3.770e-01  5.103e-02  -7.389 1.76e-13 ***
## beds                            4.639e-02  2.803e-02   1.655 0.098027 .  
## room_typeHotel room            -7.914e-01  3.005e-01  -2.634 0.008469 ** 
## room_typePrivate room          -4.241e-01  5.831e-02  -7.273 4.13e-13 ***
## room_typeShared room           -6.733e-01  3.327e-01  -2.024 0.043026 *  
## accommodates                    7.238e-02  2.106e-02   3.437 0.000594 ***
## review_scores_rating            2.095e-02  2.378e-03   8.808  < 2e-16 ***
## latitude                       -2.247e+00  1.475e+00  -1.523 0.127935    
## longitude                       2.573e-01  1.240e+00   0.208 0.835590    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.228 on 4417 degrees of freedom
## Multiple R-squared:  0.474,  Adjusted R-squared:  0.4724 
## F-statistic: 284.3 on 14 and 4417 DF,  p-value: < 2.2e-16
## [1] 187703.2

Finalement notre modèle a un \(R^2\) dee 0.47 et un RMSE de 187703. Alors notre model est décalé d’environ 187703 dollars par prévision en moyenne. Nous n’allons donc guère selectionner ce modèle, par manque de sa précision mais il serait utile pour obtenir une liste de variables importantes pour notre variable réponse.

Nous remarquons bien que pour avoir plus de revenues il faut avoir un nombre conséquent de commentaires ce qui est totalement logique car plus l’hote à des commentaires au plus positif plus le “loueurs” se sentira en sécurité et confiant de pouvoir louer ce bien.

5.2 Etudes et analyses des sentiments des commentaires des clients

Dans cette partie notre objectif est d’analyser les sentiments des commentaires des clients sur les locations airbnb dans le but d’y pouvoir identifier les logements avec les meilleurs différentes émotions i.e positive , surprise…

Deux libraries de lexique seront utilisées, il s’agit de “bing” et de “nrc”.

L’analyse des différentes émotions recensées à travers les commentaires des clients des locations airbnb se traduit par les deux graphes ci-dessous :

Nous notons que de manière générale les commentaires sont positifs, cela n’est pas étonnant sachant la popularité et l’essor de cette entreprise au cours de ces dernières années.Cependant en utilisant un lexique avec des émotions plus diversifiées nous pouvons appercevoir que en addition au commentaire positif( qui prédomine toujours) nous pouvons y discerner d’autres émotions comme la joie, la confiance, la surprise et l’anticipation. Nous allons donc essayer de recenser suivant ces différentes émotions prédominantes ou non le top 10 des logements.

Tout d’abord nous observons le nuage de mots des différents sentiments.

5.3 Modelisation des sentiments

PAS KOMPRIS MAIS OK

6 Conclusion